data2vec論文 NLPの部分メモ
Experiment setup NLP (4.3)
data2vecを比較するベースラインはRoBERTa
RoBERTaはBERTの再実装
fairseqで入手可能
Results NLP (5.3)
pre-trainingに使ったデータセット
English Wikipedia data over 1M updates
MNLI (Multi Genre Natural Language Inference)
Stanford Question Answering Dataset (QNLI)
Recognizing Textual Entailment (RTE)
5.3の中でこの3つを指して「natural language understanding」と書いている
data2vec outperforms the RoBERTa baseline.
the first successful pre-trained NLP model which does not use discrete units (words, subwords, characters or bytes) as the training target.
訓練ターゲットとして(単語、サブワード、文字、バイトのような)個々の単位を使わない、初めて成功した事前学習NLPモデル
open vocabulary